AIGC×蛋白质设计,天壤xCREATOR「一键生成」全新的蛋白质
2022年,AIGC爆发式发展成为AI领域的最大热门,强势破圈引起全民关注,展现了生成式AI的独特魅力。
AI公司Stability AI推出的AI文生图模型Stable Diffusion,将AI图像生成的效率与精度提升到了前所未有的量级。ChatGPT的到来更令人震惊,在文本生成领域几乎以假乱真,不仅能答疑解惑,还能写故事、作诗、编程。
有网友要求ChatGPT生成艺术prompt,然后输入Stable Diffusion,最终生成了一些具有艺术性的画作。
图:u/Infamous_Alpaca, Reddit
在众多AIGC的应用中,最令人惊喜的莫过于AIGC和基础科学的深度融合。
AIGC的发展启发了计算生物学家,既然AI能够通过人类语言的描述,按要求画出充满艺术性的图像,那么,能否根据简单的输入自动生成蛋白质,且生成结构不同于任何自然界中存在的天然蛋白质?
「一键生成」全新的蛋白质
据了解,国内AI公司天壤在2022年9月推出蛋白质设计工作台xCREATOR后,又于近日率先升级蛋白质工作台xCREATOR的蛋白质设计模块。
此次更新重新定义了用户基于工作台的创造力,原来只能围绕「功能目标」展开设计,更新后的平台可以进行自由设计、复合体设计、对称蛋白质设计等更多样的结构生成。
用户既不需要任何算法知识,也无需考量蛋白质能量函数,只要在平台输入目标蛋白质的简单描述,如序列长度、结构对称性、目标功能motif、结合配体结构、化学计量等,即可「一键生成」满足描述的蛋白质。
图:基于xCREATOR设计的蛋白质
天壤xCREATOR登陆网址:https://xcreator.tianrang.com
天壤研究团队指出,xCREATOR平台的蛋白质设计能力,建立在天壤自研的蛋白质折叠算法TRFold对序列与结构高维关联的强大解析能力之上,升级后的蛋白质设计在解决不同设计挑战方面的表现都更为优越。
用户输入的蛋白质描述被xCREATOR编译为相应的损失函数,对TRFold预测的结构进行约束,序列不断“进化”直至其结构满足用户描述及各项预设蛋白质特性指标。接着,xCREATOR进一步通过序列优化及AlphaFold结构预测对设计的序列和结构进行一致性评测。
图:xCREATOR蛋白质设计的算法流程图
xCREATOR设计结果具有高多样性,即可设计出与PDB中天然蛋白质结构较相似的结构,也可设计出全新的结构构象。
如图A所示,当用户约束条件仅为序列长度70氨基酸时,xCREATOR自由设计的结构与AlphaFold的计算评测一致,且与PDB中最相近的天然蛋白质6XCK的TM-score仅0.41。同时,xCREATOR也可设计出与天然蛋白质相似度较高的结构,如图B所示,用户可根据应用需求自由挑选。
高置信度的设计结果将以可视化的方式展示给用户进行分析,用户也可在选择下载设计结构及序列来进行下一步工作,促进更自由的设计。
计算生物学家的梦想要实现了吗
蛋白质被称为「生命的基石」,在所有生命体中都必不可少。人体每个细胞内就有约四千万个蛋白质,这些蛋白质参与了细胞的生长、分裂、修复、凋亡的全过程。
过去五十年,生物学家通过改造或优化天然蛋白质的方式解决疾病用药问题和开发新材料等,但实际应用中人们需要的指定功能及特性往往是天然蛋白质不具备的。通过突变改造将目标功能“嵌入”天然蛋白质的方式不仅效率低、耗时久而且成功率极低,研究人员为了一个课题坐几十年“冷板凳”的情况十分常见。
其实,在已知的天然蛋白质的背后,蕴藏着一个隐密的巨大蛋白质宇宙。
今年年初,人类实验解析结构的蛋白质总数(PDB)突破20万,已知的蛋白质序列数量达到10^15,而潜在蛋白质空间却远超过该数量级。以100个氨基酸长度的小蛋白质为例,它的可能序列的数量有20^100=1.3×10^130,其中蕴藏着无穷无尽、具有极大应用价值的蛋白质,是一个等待挖掘的巨大宝藏。
图:蛋白质宇宙概念图
建立可编程的蛋白质的设计方法,让计算生物学家拥有了足够优异的路径挖掘蛋白质宇宙的宝藏,根据需求从头设计全新的蛋白质,精准实现目标功能。
据天壤XLab苗洪江博士介绍,这项蛋白质设计技术可以对蛋白质序列和可折叠空间进行自动探索,支持更自由的输入,端到端的产出全新的蛋白质。同时,摆脱对专家经验的强依赖,也不再受天然蛋白质片段和复杂能量函数的限制,以逆折叠的方式产出符合目标功能需求的蛋白质序列和结构。
基于设计理念的突破,国内外团队开始竞相发布AIGC×蛋白质设计的新模型。2022年12月,华盛顿大学 David Baker 团队发布了RFdiffusion,用扩散模型设计多种多样与天然蛋白质截然不同的全新单链蛋白质及复合体;Generate Biomedicines公司发布扩散蛋白生成模型Chroma,可根据预设要求设计蛋白质序列和结构;Meta公司则用基于150亿参数的蛋白质序列预训练大模型实现可编程的蛋白质从头设计。
这些模型和算法的集中爆发,意味着我们已经迈入了一个可编程的生物学新时代,未来,将有可能以更精准高效的方式,真正解锁蛋白质药物开发、疫苗开发、生物合成和清洁能源等领域。
--------- End ---------
感兴趣的读者,可以添加小邦微信(zhiyaobang2020)加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或 姓名-学校-职务/研究方向。
- 历史文章推荐 -
【蛋白质结构与AlphaFold】
●AlphaFold新竞争对手出现,ESMFold预测了6亿种蛋白质结构
●打造生物科技领域的“EDA”,智峪生科推出全生态蛋白计算设计平台
●秒杀AlphaFold!Science:用AI一秒设计自然界全新蛋白质
●Nature评论|AlphaFold如何在结构生物学中实现AI的全部潜力
●AlphaFold预测出2亿种蛋白质结构,打开整个蛋白质宇宙
●分子之心发力!业界首个功能完整的AI蛋白设计平台MoleculeOS首次公开
●Nat Mach Intel|用语言模型进行可控的蛋白质设计
●Commun Biol|人工智能指导下的内在无序蛋白质的构象挖掘
●Nat Methods|ScanNet:基于结构的蛋白质结合位点预测深度学习模型
●Nat Methods|ColabFold:让所有人都能进行蛋白质折叠
●Nat Rev Mol Cell Bio|用人工智能预测蛋白质结构的前景和机遇
●Nat Commun|使用AlphaFold2改进对蛋白质-蛋白质相互作用的预测
●Nat Commun|在生物科学领域应用深度学习的当前进展和开放挑战
●Facebook|从数百万个预测蛋白质结构中学习逆折叠,预测序列信息
●AI+蛋白质错误折叠疾病的药物开发|Congruence获5000万美元A轮融资
●BIB|通过深度多任务学习准确预测RNA、DNA 和蛋白质结合的内在无序残基
●Curr Opin Struc Biol|蛋白质设计的深度生成建模
●Nat Methods|用AlphaFold以原子精度预测蛋白质结构
●Drug Discov Today|基于AI的蛋白质结构数据库有可能加速罕见病研究
●Nat Methods特刊|2021年度方法:蛋白质结构预测
●Nature Outlook|借助算法和模拟将蛋白质折叠的瞬时结构转变为药物靶点